洪强宁
这是篇因《沸腾十五年》修订版而生的文章,后半部分关于推荐引擎的段落也可视为《沸腾新十年》的剧透文,同时这也是左林右狸频道今年开始的技术源创系列的其中一篇。本文主人公、豆瓣二号员工兼前首席架构师洪强宁用丰富的技术阅历和坦诚的表达,带我们重新分解了过往 20 年中国互联网技术发展的重要节点与细节。
这篇文章的源起也与字节跳动创始人张一鸣有关。没有人会否认,在推荐引擎这项技术上实现商业收益最大化的公司是字节跳动,每天在今日头条、抖音等 APP 上接受内容供给并将时间安然交付于其中的几十亿用户是有力的佐证。而在此之前,又是哪家公司最早看到了推荐引擎将在信息流动中产生的巨大作用,并把“推荐”的用户体验推向极致?当我们将这个问题放到张一鸣面前,他的答案确定且坚定:豆瓣。
各位也应该听过 Python,当下最流行、与 AI 最匹配、并以高效著称的编程语言,豆瓣正是用 Python 写的。
2004 年,每天下午在星巴克里写程序的阿北,写出了一款与居住的胡同同名的应用。一个人在三个月时间里完成一个网站最初的大半程序并不容易,但阿北后来说,“幸亏用的是 Python。”在早期尝试过用 Java 开发后,阿北很快舍弃了这门当时用户量最大的语言,并在比较了 Ruby 和 Python 后,选择了后者,豆瓣也是国内第一款用 Python 开发的互联网产品。
本文从 Python、开源和推荐引擎等多个关键词展开,试图呈现背后的人来人往和历久弥新的江湖往事。
“行者”,在佛教里指代佛道的修行者。但在世纪初,这也是初入社会的洪强宁最早获得的群体身份之一。在他所在的中文 Python 社区 CPyUG,成员们被统称为“行者”,这些人多受早年美国的黑客文化影响,也是 Python 在国内最早的拥趸。他们积极学习并传播 Python,践行自由软件与开源精神,并在之后的十多年里成为中国互联网行业的中坚。2002 年,刚从清华精密仪器与机械系硕士毕业的洪强宁,第一份工作是嵌入式系统开发。工作之外,身为计算机发烧友的他长期流连于开源社区,并在 NewsGroup 认识了这门名为 Python 的语言。洪强宁常用 Python 为自己开发应用工具,并逐步使之成为工作、生活中最重要的编程语言。当时,Java 和 C++ 在程序员中占据统治,但两者都没有完全合乎他的心意;他又自学了当时流行的 Perl,但后者语法丑陋,仍然“没有怎么打动”他 。Python 有理想中的简洁优美,上手快,支持跨平台运行,正契合他对于“程序应该如何写”的要求与设想。也是在 NewsGroup,洪强宁最早认识了黄冬,他眼中 Python 在中国的第一人。黄冬 1997 年来到北京,并很快接触了 Linux 的开源思潮与应用。2002 年,黄冬和同事尝试用 Python 重写了公司原有的短信系统。之后,他和几位同事比对 Python 与 Java 、C++ 在测试中的表现,发现了前者在数据处理量上的惊人高效,而其语言本身的美感也同样让黄冬着迷。
黄冬
2002 年,国内了解 Python 的人可能还不到三位数,互联网可提供的相关中文信息仍然非常有限。黄冬跑遍海淀图书城,能找到的与 Python 有关的图书也不过三本,且其中涉及的知识多数疏浅,不足以支撑日常实践。也因此,在网上找人交流与 Python 有关的一切成了他精进专业的日常方法。爱好者都是天然的传播者。当时,国内以城市为单位,活跃着很多自发形成的计算机用户群组,比如北京的 Linux User Group、Java User Group、FreeBSD China。这些用户群组氛围浓厚,并常常组织线下的技术聚会,黄冬也是其中的深度参与者。2003 年底,黄冬开始在人数极少的 lists.python.cn 邮件列表中活跃,希望将国内的 Python 爱好者聚集到一起,启发思维,如此,很多人就不用再像他一样全网搜寻能交流学习的同好者。早期,他每小时能在列表里发几十封邮件,回答各种与 Python 有关的问题,其中不乏“如何让 Python 如何运行起来”这类的入门级问题。2004 年,黄冬加入新浪负责邮箱部门,黄冬的领导、新浪历史上最有声望的 CTO 李嵩波提出,可以使用“org”的域名建立 Wiki,沉淀下邮件列表里有价值的内容,新浪还可以提供服务器。李嵩波还和黄冬一起想个名字,由此就有了啄木鸟社区(woodpecker.org.cn)。
同时,黄冬也着手组织线下会课,组织成员一起就技术、开发、工程问题交流学习。洪强宁记得很清楚,第一次会课只有 6 个人参加,在一间狭小的会议室里,他分享了邮件列表的礼仪规范,并建议在群组推行更适合讨论的邮件风格,正在做 Uliweb 的李迎辉分享了 Uliweb 的框架设计,他开发的 Ulipad 后来成为很多 Python 爱好者推崇的编辑器。不过,组织者黄冬并没有到场,而是通过 QQ 群里的视频会议功能完整了分享。
2005 年,黄冬等人将啄木鸟社区、Python 邮件列表、会课的成员整合之后,组建了中国 Python 用户组(CPyUG),又称华蟒用户组,蟒取自 Python 的本意,它主要“面向实习、应用、推广 Python 以及相关技术的爱好者”。
在社区里被叫做 Limodou 或李木头的李迎辉是中文互联网上最早为 Python 呼喊的几人之一。早在 2001 年,中国 Linux 论坛首辟 Python 专栏“今天我上任!”,便是由他主持,这也是国内 Python 开发者的最早聚集。
在 CPyUG,当时与李迎辉齐名的人还有广州的潘俊勇和刘鑫(March Liu),同时聚集的还有今天的慧聪网 CTO 韩祝鹏、后来的豆瓣技术总监清风,而投入最多心力的组织维护者当属 ZoomQuiet。
2005 年,CPyUG 成立大会,前排左二:李迎辉,后排左一:ZoomQuiet,后排左三:洪强宁。
ZoomQuiet 本名周琦,是社区里备受拥护的“大妈”,他曾先后主持编撰过《Python 核心编程》《可爱的 Python》《真实世界的 Python 仪器监控》。直到今天,他的工作仍与 Python 的传播密切相关,他发起的蟒营一直在专注开展 Python 的学习培训。而 ZoomQuiet 对开源的理解与践行也影响了国内的很多后来者,今天的开源旗手、开源社的庄表伟就曾直言,在对开源的理解上,ZoomQuiet 对他启发颇大。
2004 年,ZoomQuiet 从上海来到北京加入新浪,随后,左林右狸频道的老朋友、慧聪 CTO 韩祝鹏也被 ZoomQuiet 拉到了新浪。和与黄冬早在 2002 年便在社区熟识的清风也几乎同时加入新浪(同期还有FreeBSD社区著名的 delphj)。
ZoomQuiet
在黄冬加入新浪的四年里,CPyUG 和 FreeBSD 等开源社区的很多人都曾收到新浪的 offer。这甚至不需要一个严格的面试流程,当每个成员的代码、对待伙伴的态度都在社区里一览无余时,新浪便就势吸纳了这些当时最前卫的技术人。也因此,那段时间,新浪是聚集中国 Python 社区开发人员最多的公司。这是新浪技术团队的黄金时代。
2010 年以前,新浪全程赞助了 CPyUG 的运维。之后,同样在此招募了早期技术团队的豆瓣则义务承担了 CPyUG 所有系统的发布与运维。“志同道合”再没有用在这里更加恰当了。黄冬向左林右狸频道总结这个群体的共同特点:热爱 Python,愿意分享与奉献,且行为无太多功利性。这些也形成了早期的社区“性格”。对这群 Python 爱好者来说,CPyUG 是一个技术家庭般的存在,成员们相互认可并信任,基于开源精神的感召,分享、奉献在社区里是本能动作。不乏调侃意味的“Pythonic 八荣八耻”曾在 CPyUG 广为传播,而那段著名的“奋起宣言”在今天仍有重提的必要:“每日至少抽一刻钟,解答邮件列表中初学者的问题,每周至少抽两小时,整理新学知识将体验发表/分享出去,通过Blog/Wiki/邮件列表/个人网站……每旬至少抽四个小时,来翻译自个儿喜爱的自由软件的文档, 每月至少抽八小时,快乐的编程,推进自个儿的项目, 每年至少参加一次,自由软件的活动,传播自由软件思想,发展一名‘自由人’……只要我们每个人都坚持下去……10年!就足以改变中国软件的整体风貌!”黄冬表示,线下会课对早期社区氛围的形成有着不可替代的作用。用他的话讲,社区里只有两种人,发起问题的人和发起分享的人(他特别向左林右狸频道强调,是分享,而不是回答、解答或其它)。成员们在会课中面对面对话,这时每个人就不再仅仅是一个 ID,而是一个个喜欢交流、愿意分享、渴望学习的真实的人。这让社区里人与人的联系更为紧密,也让成员获得了更快速的成长。这样的氛围自然也吸引着越来越多的人加入,并进一步丰富社区内容。除了内部的交流与会课,当时社区还自发形成了各种文档翻译团队,义务为社区推广。2007 年,经历新浪的动荡之后不久,黄冬开始了自己的创业,清风在第二年加入豆瓣,韩祝鹏则在豆瓣短暂停留之后,与 ZoomQuiet 同样加入金山,新浪 Python 梦之队就此各奔东西。9 月,ZoomQuiet 南下珠海前,在北京发出的最后一封邮件里写道:“努力在珠江三角洲地区建立稳定的会课制度,加强城市间技术交流;让 Pythonic 之光同样在南方强烈起来。”2005 年 10 月底,洪强宁收到一封邮件,正打算从上海回北京组建团队的阿北在邮件里问:“想不想一块来做个伴儿。”早在豆瓣上线时,两人便常在邮件列表中交流技术看法,CPyUG 的成员即便对阿北不熟悉也都有所耳闻,社区里有人用 Python 写出了一个小有名气的网站,颇以此为豪。见面后,相比阿北对豆瓣的描述与规划,他在其中传达的关于未来的看法则更让洪强宁震动:互联网会展现出前所未有的社会价值,信息过载将是人们未来 10 年到 20 年面对的重要难题,而推荐引擎会是解决这个问题的关键钥匙。用洪强宁的话说,阿北一直是个文艺青年,“特别特别文艺”,但豆瓣从一开始就不是为了解决文艺的问题而存在,虽然它最初的主要条目是图书和音乐。洪强宁告诉左林右狸频道:“他(阿北)想解决的是人的生活的问题,信息的获取、消费问题。”也因此,推荐引擎一开始就存在于豆瓣的代码中。与阿北熟识前,洪强宁是一个狂热而纯粹的技术爱好者,像一个喜欢打游戏的少年进了游戏厅,沉醉于如何写出漂亮的程序。在那份嵌入式系统开发的工作中,他虽然时常感到硬件环境、操作系统等对个人能动性的制约,但也未想出突破或跨越的方法。互联网公司他不太懂,自己究竟怎样能与互联网产生更深入的关联他也并未细想。技术不是一个人闭门造车,而是一个群体共同研究进而解决一个问题,虽然没有具体的结论,但曾深受开源精神洗礼的洪强宁对技术的探索,一直建立在这种潜意识之上。过去几年,这正是这种价值认同给了他和 CPyUG 的同伴们归属感。而眼前,阿北则用更系统的表达和具体的行为为他指出了技术的最终落点——技术的价值是解决人类面对的问题。更重要的是,当“未来之路”在面前展开时,一个了解和热爱计算机技术的人,有机会参与到这项事业的建设中,为世界的改变贡献自己的力量。 “无论如何,我要写豆瓣。”没走出和阿北见面的那间咖啡厅,他便做出了决定。这种坚定也帮他轻易跃过了现实的阻碍,比如一份低于从前的、刚够支付每月房贷和信用卡账单的工资。到今天,洪强宁仍然认为,这是他人生最重要也是最满意的一个决定。作为豆瓣网站唯二的维护者,早期阿北和洪强宁的工作方式也非常灵活,没有办公室,每周在咖啡厅见一次面,其余时间各自回家干活,去哪个咖啡厅,则取决于两人距离的中间值。夜里,两人各自打开 Google talk,边讨论边在计算机上操作。2006 年 3 月,豆瓣正式成立公司,并在三个月后,在 798 租下了第一间办公室,几名员工的共同点是,要么来自 CPyUG(比如 xyb 谢彦博),要么来自豆瓣自己的社区。
2006 年,豆瓣刚刚成立时的六人团队,左起 brant、cooper、阿北、洪强宁、王守崑、谢彦博。
相当长一段时间里,豆瓣招聘的主要根据地就是 CPyUG。找了解 Python 的程序员本身就完成了对员工的第一层筛选。在那几年里 Python 一直小众,一个懂 Python 的程序员大概率具备独立的审美与思考,而能主动学习一门自己认可的语言也已经完成了个人成长能力的证明。基于这些特质建立的早期团队也成为豆瓣的中坚。豆瓣内部以各自的 ID 相称,但洪强宁是个例外,他以自己名字拼音缩写注册的 ID 实在过于拗口,又因为他非常自然地把在 CPyUG 便尤为突出的爱交流、爱表达的习惯带进了新公司,便在豆瓣得了“教授”的称呼。阿北曾经表示,别人做过、做得成熟的事情豆瓣一定不会做。这种风格体现在公司的方方面面,在技术上也是如此。豆瓣的标准是,在新技术与成熟技术之间,一定选择新技术——新技术之所以出现,也正是因为它解决了原有成熟技术携带的某些问题。“新的往往好过旧的。”洪强宁说。但前提是,完全掌握这项技术,“ 对于能够解决它带来的问题有足够的自信心。”无论怎样,一旦与过去或他人在道路选择上划清界限,掉入陷阱的风险也会随之增高。豆瓣当时选择的很多技术应用都处于刚刚成熟的阶段。遇到新问题的回答也非常简单:去研究它——至少要可以修改它的代码。失败的案例累积了不少,但,“没有什么大不了的”。洪强宁在豆瓣的角色是首席架构师,主要负责系统平台。架构设计的合理程度直接决定了网站的性能。豆瓣前期增长迅速,访问量经常几个月翻一番,容量规划是最让他头疼的一件事情。他带团队做分布式系统,做服务平台层,简化应用。几年之后,这件事才有了一个更大众的定义:云。同时从 CPyUG 继承的还有对开源的践行。尽管是早期国内在开源社区最活跃的公司,但关于是否使用开源以及开源与否的问题,几乎从未占据豆瓣的会议议程。使用开源技术,然后将自己的技术开源回馈社区这件事在公司内部无需讨论。同样是资深开源参与者的阿北对此仅有的一次干预是在豆瓣开源自己的项目时,提醒洪强宁要和法务确认下使用的的 license。默认的一般程序是,在决定使用一项关键技术时,有满足需求的开源技术,便优先选择开源技术。退之,则是自研。而在自研技术中,只要是非业务相关的通用技术,也全部开源。“大家没有什么压力,我觉得这是挺自然而然的一件事情。我们从开源(社区)拿来那么多好东西,把我们的东西拿回去,是挺自然的一件事情。大家是一个共同体, 我希望我写的代码能够在更多的地方发挥作用。”洪强宁说。2009 年,洪强宁代表豆瓣参加行业内的技术会议,演讲中他认真分解豆瓣创业几年不同阶段的架构变化,在不同用户和数据量级,团队所做的不同举措。结束后,在场的冯大辉向他调侃,豆瓣果然开放,这些数据也可以往外说。洪强宁才知道,国内不少大厂的技术带头人出来讲话,内容都会在内部经过多方把关和审核, 很多牵涉数据的内容压根过不了关。技术分享还需要干这些事情?他感到奇怪。在豆瓣这从来都不是技术开发要考虑的问题,回馈社会也一直是豆瓣的本源和初衷。日常管理中,豆瓣也处处“佛系”。它不鼓励加班,“deadline”的概念非常淡化。把事情做好且做得优雅,尤其被看重。这种从容不迫的状态在商业世界里或许并不值得推崇,但豆瓣就是这样低调地存在着。而初创豆瓣的早期团队,乃至豆瓣的现有团队,始终保持着这种也许与商业社会格格不入的“自然和谐感”。“(商业上)更成功的那些公司,可能都很狼性,竞争非常激烈,我觉得挺好的。但是一个公司有一个公司的风格, 独一无二一直是豆瓣所推崇的,那豆瓣就是这样的风格。”洪强宁说。无论从感性还是理性上,洪强宁对豆瓣的总结都是:“它和其它公司有非常典型的区别。”这种区别你可以做出很多种解释,比如,它从一开始就执着于个性化推荐;比如,有前员工直言,加入豆瓣的原因是“喜欢万晓利”;比如,他是一个你可以直言梦想并丝毫不用为此感到羞涩的公司。早期豆瓣招聘时常常通过从一个人身上寻找“豆瓣味”来做判断。“豆瓣味”是什么,公司从来没有人给这个词下一个标准的定义。洪强宁的理解是,不汲汲于利益,追求极致,同时注重美感,有优雅的感觉,又能对技术与技术传播持以开放的态度,这就是豆瓣味。阿北推崇的那本《大城市的死与生》在豆瓣几乎人手一份,并在后来直接影响了国内不少其它互联网社区的建设,左林右狸频道与小红书首席产品官邓超聊天,他直言,小红书在产品设计上受豆瓣影响颇大。一人一票的打分机制为豆瓣赢得了不少业内人的尊重,但洪强宁并不认同豆瓣是一个“民主”的乌托邦社区的说法,在他看来,豆瓣在社区中的表现更多是公司层面价值观的外化:尊重个体的价值,一个个体不应该比另一个个体有更高的优先权。2011 年,知乎有一个关于推荐引擎的热门问题:你用过的推荐引擎或者个性化推荐服务有哪些?推荐社区 ResysChina 发起人谷文栋在 2012 年 10 月给出了最高赞回答,他的前两句是:“1. 如果还提 Amazon、Netflix、IMDB、豆瓣会不会显得很土;2. 豆瓣 FM,让我五体投地顶礼膜拜的一款产品,我觉得豆瓣应该把它拆出来独立发展!”这个问题的提出者是王守崑,豆瓣核心的“user-based”算法的主导开发者( 豆瓣公司内大家都叫他“胖子”,虽然后来他并不太胖)。和阿北、洪强宁一样,2006 年年中加入的王守崑也毕业于清华。在收到阿北的邀请时,他刚刚拿到亚马逊的 offer。同样是做推荐引擎,但曾和阿北共事过的王守崑觉得,豆瓣的事情看起来更有趣一些,就此成为豆瓣的 4 号员工。当时阿北为欢迎王守崑所写的入职介绍是:“历经整个春天的筹备,胖子也如约加入了豆瓣。胖子是豆瓣的‘第一周用户’(37号)。从他读过的书和写出的书评里,你断然不能看出他是一个算法和优化专家。几年前一个寒冷的夜晚,我曾经拉着他紧随送奶的冷藏车开过上海的大街小巷,记录到每一个便利店的距离和时间,直到天亮。然后胖子用了几个月时间做出一个庞大的数学模型来计算中转仓库的最佳数量和位置。目的是为了用更低的成本把更新鲜的牛奶送到早班的人群手中。在豆瓣,同样是为了更好的服务,胖子面临许多更有挑战性的问题。为此他和整个团队都激动不已。”在豆瓣,王守崑解决的第一个问题就是,当豆瓣的用户逐渐增多甚至猛增时,数据量越来越大之后,如何让推荐引擎的程序在一个晚上跑完。而在更根本的问题上,如何让推荐引擎更好地理解用户,给出满意的推荐?相信算法的力量是其一,但在这之前,先要明确精准算法的落点是什么。“算法的使命,不是让人多点广告,算法的使命是要改善人类的生活。”直到今天,这句话仍然时常出现在王守崑的对外演讲中。跨越机器的局限性,通过关注关系形成的人与人之间的推荐,与算法一同组成了豆瓣的推荐系统。“人和人之间的口味近似,一个人推荐的东西,也会有助于另一个人扩展视野。以物和物相似度为基础的推荐,永远都在你所看到的那些东西的区间之内,只有通过人与人的推荐方式,才能够让你看到更广阔的世界。”洪强宁这样向左林右狸频道解释。从这个维度上说,在移动互联网时代继承豆瓣衣钵的是 2014 年诞生的最右,后者由迅雷前技术合伙人李金波创办,其推荐系统同样以算法为本,但又有社区关系驱动。最右也是字节跳动的三家竞品公司之一,另外两家欢迎各位邻里竞猜(也欢迎点击阅读全文,到左林右狸的知识星球讨论、解惑)。美国互联网行业每四年一个创新周期,中国互联网则基本上可以每五年划分一个创新周期,无他,美国总统四年竞选一次,中国则每五年做一个国家计划。2014 年、2015 年是中国移动互联网创新周期开始向消费互联网创新周期更替、交接的年份。也是从 2014 年起,洪强宁、王守崑等一众强人陆续离开豆瓣,开启新的征程。2014 年底,洪强宁加入宜信大数据创新中心,负责宜信的金融云业务,继续钻研 “云”数据服务的系统解决方案。这里和豆瓣一样聚集了足够多的优秀的推荐引擎人才,但在风格上则更加狼性。知乎 2016 年的一则招聘帖中,曾有不少程序员聚集讨论一个问题:“同时收到了宜信和今日头条的 offer,到底去哪家?”留言中有人说头条名气大应该去头条,还有人说宜信牛人多,是更优选。其中的最高赞回答是:“宜信有个博士叫项亮,他有一本书《推荐系统实践》很好,如果真想做推荐就应该去宜信。”这话与事实并没有太大出入,不过这个叫“项亮”的作者后来也去了今日头条。《推荐系统实践》吸引的不止这些求职者,也包括张一鸣本人。2012 年,张一鸣在搭建第一代推荐引擎时,便知晓项亮在写这本书。他与项亮取得联系,想提前获取电子版阅览,但被后者以书还没有出版为由拒绝。张一鸣能动性强,担心影响头条的开发进度,便自己上网搜索资料写出了一版推荐引擎。张一鸣之所以会知道项亮,则是因为他是谷文栋的博客读者。谷文栋博士毕业于北航,是原简网世纪 CTO,也是中国推荐系统的启蒙者和拓荒者。2009 年 8 月,谷文栋和项亮一起发起了 Resys China——一个面向推荐系统的垂直社区,这大概是中国最早也是最专业的推荐引擎讨论社区。简网创业暂告一个段落后,谷文栋在 2013 年 11 月加入宜信,任宜信大数据创新中心副总经理,几乎前后脚,项亮也加入任首席数据科学家。2018 年,谷文栋进入字节跳动,同年,项亮也成为字节跳动的推荐系统架构师。谷文栋和项亮可算作中国推荐系统的伯牙子期,当代第一 CP。也是在 2010 年 3 月 ResysChina 大会上,时任 CSDN 总编、现就职美团研究院的刘江向项亮提议写一本实战经验分享的书。为这本书,项亮还拉上了另外两个人,时任豆瓣推荐系统算法工程师陈义和时任腾讯情境广告中心总监王益。三人都曾多次参与推荐系统论坛,陈义和项亮同为中科院博士,王益也因与项亮在 Hulu 的老板相熟而与项亮交往甚多。项亮是科班出身的推荐算法顶尖人才。2006 年,他从中科大自动化系毕业,之后保送中科院自动化所,研究机器学习和数据挖掘,参与通用搜索引擎的研究与开发,并在 2011 年获得博士学位,读博期间曾拿下 Netflix 百万美金大奖赛第二名。之后,项亮加入 Hulu,一手打造了 Hulu 的推荐系统,将推荐系统对 Hulu+(订阅服务)的流量贡献率提高到 65% 以上。在 2013 年 11 月前,国内推荐算法人才密度最高的地方要数 Hulu 中国研发中心(其实移动端音视频人才方面,Hulu 也领一时风骚,今天快手直播的技术负责人于宁以及抖音直播的诸多主力都在 Hulu 工作过很长一段时间)。这不仅仅是因为有项亮,更重要的是有张小沛。2013 年 11 月 8 日,在宜信创始人唐宁的力邀下,时任 Hulu 副总裁的张小沛离开 Hulu 加入宜信,宜信大数据创新中心也在这一天正式成立。自此,宜信大数据创新中心成为国内推荐引擎人才最密集之地(现在毫无悬念是字节跳动)。张小沛 1991 年考入清华大学计算机科学与技术系,获得学士、硕士学位,曾任微软在线广告团队首席研发总监、Hulu 全球副总裁。在加入 Hulu 前,张小沛做的是精准广告与内容推荐,她在宜信的职位是 CTO,兼任宜信大数据创新中心总经理,主管技术开发、互联网营销、大数据驱动的风控反欺诈、以及移动互联网产品的战略和落地实施。任职期间,她帮助宜信搭建了大数据方向的基础战略,完成了宜信云金融架构。在相当长一段时间里,张小沛就是宜信大数据中心的旗帜,大量技术人才因为她汇聚到这里,后来宜信旗下不少大数据产品甚至以她为原型命名。曾经的宜信大数据创新中心,前排从左至右:项亮、郑华、郝强,谷文栋,后排从左至右:张小沛、郑赟、李宝民、魏旋、洪强宁。2013 年,当张小沛告诉团队里的郑华自己要离开 Hulu 加入宜信,并希望他与自己一起加入时,虽然对于宜信和金融完全没有认知,出于对张小沛的认可与信任,郑华仍然义不容辞地应下。在团队里被称为“华哥”的郑华 2007 年毕业于清华电子工程系。毕业前一年,他加入了一个叫做 mojiti.com 的做视频标注的初创团队。而后 NBC 和 FOX 成立视频网站,邀请 mojiti.com 骨干团队加入,上线后就是后来的 Hulu。郑华在 Hulu 的领导就是张小沛,主要工作是做推荐系统。六年时间,郑华带出了一支在业内颇有名气的队伍,包括后来一起加入宜信的项亮、魏旋、郑赟等人。郑华在宜信统管着大数据处理平台、大数据实时授信平台、大数据驱动的反欺诈和风险管理引擎等。提起在宜信共事的这个团队,洪强宁至今满心感激与敬佩。如果说阿北帮助洪强宁获得了更开阔的眼界、看待世界的全新方式,以及关于技术价值的完整认知,张小沛则给予了他一名技术人的最佳示范,比如,一名 CTO 的视线不应该只限于技术应用与技术管理,她甚至不一定亲自着手技术实操,但一定要在组织、调动资源上游刃有余,从而使技术最大限度地与业务配合,推动业务实现——业务成果才是技术价值的最终体现。“ 作为一个技术人,你不能够只守在自己熟悉的那个领域,安心地搞自己技术的事情,然后把其它的事情都抛给别的团队。不是这样子的。你需要去 push 业务的事情往前进,这是你作为技术人的职责。”洪强宁总结。正如阿北与张小沛表现出的是两种不同的优秀,豆瓣技术团队与宜信大数据创新中心技术团队虽然同样对新技术充满好奇与热情,追求的却是两种迥然不同的实现方式。豆瓣在将事情做到极致的同时,强调用最好、最优雅的方式来达成。而在张小沛的高标准、高要求下,宜信大数据创新中心更看重高效,每个人都须竭尽全力将自己的技术产出做到最大。
2016 年,洪强宁收到的豆瓣十周年纪念礼物
2016 年离开宜信后,洪强宁没有和郑华等人一样跟随张小沛加入瓜子(上个月有消息传出,张小沛已经从车好多集团离开创业,并已获得今日资本、山行资本、红杉、IDG、高榕资本、晨兴资本、天善资本近 3000 万美元的投资)。此前从没想过创业的他和王守崑一起创办了对话机器人公司爱因互动,在人工智能这波巨浪上组织起一艘舰队,希望承继豆瓣早期先锋性的开创风格,在 AI 的新领域开辟一条航道。2016 年 7 月,爱因互动获得了华创资本的千万级天使轮融资。华创资本和宜信本来有着千丝万缕的关系,他们的创始人都是唐宁。曾先后任职美国华尔街 DLJ 投资银行、亚信战投部的唐宁是中国互联网的投资老人,也是与薛蛮子同辈的中国最早的天使投资人,而唐宁多年来的得力伙伴、华创创始合伙人吴海燕正是爱因互动的投资人。洪强宁:我接触互联网是 1995 年年底左右。到了 1996 年,清华有了计算机开放实验室,上网一小时一块钱。我当时除了上课,剩下的时间基本上都泡在那儿,每天泡到最后管理员赶人走。那时候其实就已经接触到一点开源的东西,在 Netscape 上会接触到各种各样的思考,但这时候互联网对我更多还是一个信息来源。明确理解开源软件、开源运动,应该还是在接触 Linux 之后,差不多在 1998 年左右。洪强宁:我最初更多是一个使用者的角色吧。看到王垠写《完全用 Linux 工作》的时候,我就是那种状态,全套用 Linux 工作。左林右狸频道:豆瓣为什么会从 2006 年那么早的时间就在开源上这样几乎毫无保留地投入?洪强宁:我总觉得那时候做开源是非常自然的一件事情,整个互联网大的趋势都是偏自由的,和现在完全不一样。(那时候)大家觉得信息要自由流通,都畅所欲言,网上也有各种很著名的论战,这其中也包括博客的兴起。所以当时就觉得开源是正确的事情,世界就应该是这个样子的。那真的是互联网的黄金年代。左林右狸频道:技术团队最初是怎么就这一点达成认同的?洪强宁:豆瓣的开源策略是比较朴素的,就是拿了东西要还回去。我当时在团队里经常说,全世界的程序员是一个共同体,大家的水平是一块提高的,别人水平高了,你的水平自然就会高。你要把自己做的东西贡献出来,才能跟别人保持在一条线上。现在很多公司已经把开源当成一种产业来做了,“我要做一个事情”、“我要运作一个社区”,然后“用来干什么样的事情”。我不是觉得不好,开源都是好事,但可能不像当时那么单纯了。那时候非常的单纯,就是我做出了什么,只要有用,大家一起用。洪强宁:PingCAP,我非常非常看好他们。他们真的走出了一个在中国发展开源的路径,有榜样性的力量。刘奇和黄东旭是很牛逼的技术人。如果当初没有打算要创业,我一定会跑到他们那边去,说我要跟你们一块干。他们在用非常纯粹的开源方式做商业公司,而且做得很好,我非常非常佩服这样的人。左林右狸频道:2016 年决定创业和 AlphaGo 有关系吗?洪强宁:其实关系不大。我从宜信出来之后,要判断下一个人生的方向。在决定要做什么事的时候,我更多考虑的是,这件事情是不是在技术发展的正确方向上。只要在正确的方向,我做起来就比较踏实一些,觉得没有逆潮流而动。我之前的技能点主要在云计算上面,但云计算已经属于相对比较成熟的技术了,如果继续做,就又开始重复自己了。我特别讨厌重复自己。守崑是 AI 方面的专家,跟他讨论了之后,我就决定,接下来的方向一定要和 AI 捆绑在一起,因为 AI 是下一件大的事情。这个是跟阿北学的。而且 AI 和我之前在做的云计算关联非常紧密,我们也知道 AI 眼下就可以怎么发挥价值。它不像 AR 和 VR,可能东西做出来了,但不见得在什么地方有用。2016 年,NLP 的论文的数量增长非常快,我们觉得 NLP 会有很快的发展。NLP 难度比 CV 更高,难度高且价值大的事情是创业公司的机会,所以我们最后选择了 NLP 领域,形态是对话机器人——交互永远都是大事情。我们看这个方案的时候,不知道资本市场上 AI 已经热了,当时 AlphaGo 跟李世石的棋还没有下。对话机器人在商务上最成熟的应用场景是客服,但当时市场上常见的问答型对话机器人价值太低了。要发挥更大的价值就应该让机器人从回答问题变成引领问题,引导用户去完成他想要做的事情。所以我们要解决的是复杂的多轮对话问题。并且,要让机器人很好地解答问题,仅仅靠 NLP 里面的对话技术是远远不够的,知识是机器人对话里非常核心的要素,特别是在现在算法还不成熟的阶段,知识是能够做出弥补的关键。而知识图谱则是知识表达的最好形式,能够和机器人做很好的结合。所以我们现在的两个核心技术,一个是对话技术,一个是知识图谱,两者做有机的结合。左林右狸频道:2008 年,豆瓣在招聘算法工程师时,在招聘要求的前面写着“热爱探索和钻研,认为代码水平的提高是永无止境的,相信算法能够改变人们的生活。”,这是你写的吗?洪强宁:这个是守崑写的。但如果是我写的话,会是“相信技术改变世界”。